Telegram Group »
United States »
Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение » Telegram Webview
🤖 Бэкенд под ML-проекты: что может пойти не так
Модель — это всего лишь верхушка айсберга.
В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
✔️ различия между offline и online логикой,
✔️ проседание по latency,
✔️ неконсистентные признаки,
✔️ неустойчивые A/B-эксперименты,
✔️ и многое другое.
В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.
📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Модель — это всего лишь верхушка айсберга.
В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.
📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Команда дня: строгая типизация NumPy массивов
Обычно мы пишем так:
🙅♂️ Но это не защищает от ошибок — форма и тип данных не проверяются.
✔️ Вместо этого — используем обобщённые типы:
Теперь mypy и pyright ловят ошибки до запуска:
🙅♂️ неверная размерность,
🙅♂️ неподходящий dtype.
👉 Хотите проверку ещё и в рантайме?
✔️ Используйте
При передаче неверного массива — будет чёткое сообщение об ошибке.
Полезно для:
— ML / data science
— научных расчётов
— оптимизации с NumPy и Numba
Примеры:
—
—
—
Библиотека дата-сайентиста #буст
Обычно мы пишем так:
def f(x: np.ndarray): ...
from numpy import ndarray, dtype, uint8, bool_, float64
def process(
x: ndarray[tuple[int], dtype[bool_]],
y: ndarray[tuple[int, int, int], dtype[uint8]],
) -> ndarray[tuple[int], dtype[float64]]:
...
Теперь mypy и pyright ловят ошибки до запуска:
static_frame
:import static_frame as sf
@sf.CallGuard.check
def f(x: ndarray[tuple[int], dtype[np.number]]): ...
При передаче неверного массива — будет чёткое сообщение об ошибке.
Полезно для:
— ML / data science
— научных расчётов
— оптимизации с NumPy и Numba
Примеры:
—
ndarray[tuple[int], dtype[bool_]]
— 1D массив булей—
ndarray[tuple[int, int], dtype[np.str_]]
— 2D массив строк—
ndarray[tuple[int], dtype[np.number]]
— массив любых чиселБиблиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Работаете с табличными данными?
Эти простые советы сэкономят вам время, память и нервы:
Быстрее, короче, читаемее:
# Вместо apply
df["log"] = np.log(df["x"])
Избавьтесь от
.iterrows()
— векторные операции эффективнее:df["sum"] = df["a"] + df["b"]
Существенно уменьшает потребление памяти:
df["country"] = df["country"].astype("category")
Не тратьте ресурсы на лишние строки и столбцы:
pd.read_csv("big.csv", usecols=["col1", "col2"], nrows=100_000)
Сначала собираем — потом записываем:
df.to_csv("result.csv", index=False)
Проверяйте «тяжёлые» столбцы
df.memory_usage(deep=True)
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🫣 Устали от HR-сказок про «дружный коллектив» и «печеньки в офисе»?
Давайте честно поговорим о том, что действительно происходит на IT-рынке. Не в розовых презентациях, а в реальной жизни разработчиков, тестировщиков, аналитиков и всех, кто живет кодом.
🧐 Мы проводим исследование, чтобы выяснить:
— Как часто мы прыгаем между компаниями (и почему)
— Какие красные флаги заставляют бежать без оглядки
— Где реально находят работу
— Что бесит в HR больше всего
— Сколько кругов собеседований — это уже перебор
Результаты покажут реальную картину рынка. Без приукрашиваний. Может, компании поймут, что нужно менять, а специалисты — куда двигаться дальше.
😈 Опрос займет 5 минут, но результаты будут работать на всех нас → https://clc.to/9aaXVg
Давайте честно поговорим о том, что действительно происходит на IT-рынке. Не в розовых презентациях, а в реальной жизни разработчиков, тестировщиков, аналитиков и всех, кто живет кодом.
🧐 Мы проводим исследование, чтобы выяснить:
— Как часто мы прыгаем между компаниями (и почему)
— Какие красные флаги заставляют бежать без оглядки
— Где реально находят работу
— Что бесит в HR больше всего
— Сколько кругов собеседований — это уже перебор
Результаты покажут реальную картину рынка. Без приукрашиваний. Может, компании поймут, что нужно менять, а специалисты — куда двигаться дальше.
😈 Опрос займет 5 минут, но результаты будут работать на всех нас → https://clc.to/9aaXVg
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Анализ и прогнозирование временных рядов на Python!
Если вы хотите разобраться, как работать с временными рядами и строить точные прогнозы — этот курс именно для вас.
Будь вы новичком или уже знакомы с темой, вы найдёте в курсе всё необходимое: от базовых понятий до продвинутых моделей.
📦 В курсе разбираются:
— Простое, двойное и тройное экспоненциальное сглаживание (метод Холта-Винтерса)
— Метрики оценки моделей: MAE, RMSE, MAPE
— Продвинутые модели прогнозирования: ARIMA, SARIMA, SARIMAX
— Препроцессинг ежедневных данных и кросс-валидация для временных рядов
— Настройка гиперпараметров и проверка качества прогноза
📌 Вы научитесь:
— Готовить временные ряды к моделированию
— Строить и обучать модели в Python
— Оценивать точность и надёжность прогнозов
— Делать обоснованные предсказания на будущее
🔗 Ссылка на курс: https://clc.to/3GDKJg
Библиотека дата-сайентиста #буст
Если вы хотите разобраться, как работать с временными рядами и строить точные прогнозы — этот курс именно для вас.
Будь вы новичком или уже знакомы с темой, вы найдёте в курсе всё необходимое: от базовых понятий до продвинутых моделей.
📦 В курсе разбираются:
— Простое, двойное и тройное экспоненциальное сглаживание (метод Холта-Винтерса)
— Метрики оценки моделей: MAE, RMSE, MAPE
— Продвинутые модели прогнозирования: ARIMA, SARIMA, SARIMAX
— Препроцессинг ежедневных данных и кросс-валидация для временных рядов
— Настройка гиперпараметров и проверка качества прогноза
📌 Вы научитесь:
— Готовить временные ряды к моделированию
— Строить и обучать модели в Python
— Оценивать точность и надёжность прогнозов
— Делать обоснованные предсказания на будущее
🔗 Ссылка на курс: https://clc.to/3GDKJg
Библиотека дата-сайентиста #буст
😵💫 Как правильно выбрать LLM для использования в агентских системах
Модели могут выдумывать факты, ссылаться на несуществующие источники и уверенно врать. Особенно часто это происходит при работе с редкими языками или специфическими тематиками.
Поэтому на первом занятии курса «AI-агенты для DS-специалистов» разберем, как с этим бороться. И это только первый из пяти уроков!
🔍 Выбор правильной модели
Не все LLM одинаково полезны. Обсудим квантизованные модели, instruct-версии и мультилингвальные решения. Узнаем, где больше галлюцинаций — в базовых моделях или после дообучения.
💰 Токенизация и стоимость
Разные языки «съедают» разное количество токенов. Покажем, как это влияет на цену API и почему русский текст может стоить дороже английского.
⚡️ Температура и Guardrails
Настройка temperature помогает контролировать креативность модели. А системы Guardrails — отсекать неподходящие ответы еще до генерации.
🧠 Память vs контекст
Казалось бы, зачем RAG, если есть модели с контекстом более 10М токенов? Но не все токены равнозначны. Разберем, когда внешние источники все еще нужны.
В конце создадим простых агентов на LangChain с подключением к внешним источникам и инструментам поиска — и у вас уже будет кейс по созданию собственного AI-агента.
👉 Присоединяйтесь к курсу — приятная цена действует до 14 июня!
Модели могут выдумывать факты, ссылаться на несуществующие источники и уверенно врать. Особенно часто это происходит при работе с редкими языками или специфическими тематиками.
Поэтому на первом занятии курса «AI-агенты для DS-специалистов» разберем, как с этим бороться. И это только первый из пяти уроков!
🔍 Выбор правильной модели
Не все LLM одинаково полезны. Обсудим квантизованные модели, instruct-версии и мультилингвальные решения. Узнаем, где больше галлюцинаций — в базовых моделях или после дообучения.
💰 Токенизация и стоимость
Разные языки «съедают» разное количество токенов. Покажем, как это влияет на цену API и почему русский текст может стоить дороже английского.
⚡️ Температура и Guardrails
Настройка temperature помогает контролировать креативность модели. А системы Guardrails — отсекать неподходящие ответы еще до генерации.
🧠 Память vs контекст
Казалось бы, зачем RAG, если есть модели с контекстом более 10М токенов? Но не все токены равнозначны. Разберем, когда внешние источники все еще нужны.
В конце создадим простых агентов на LangChain с подключением к внешним источникам и инструментам поиска — и у вас уже будет кейс по созданию собственного AI-агента.
👉 Присоединяйтесь к курсу — приятная цена действует до 14 июня!
🧪 Что делать, если классическая схема A/B-теста не работает
A/B-тестирование — золотой стандарт продуктовой аналитики. Оно помогает принимать решения на основе данных, а не догадок.
Но есть нюанс: вся методика держится на важном допущении — независимости поведения пользователей.
⚠️ А если это допущение нарушено? Например, когда один пользователь влияет на другого: в соцсетях, маркетплейсах, рекомендательных системах — в таких случаях классическая схема даёт сбой.
Что с этим делать? Какие альтернативы существуют?
Разбираемся, когда A/B не работает — и чем его заменить: https://proglib.io/sh/lNqAnLfe9J
Библиотека дата-сайентиста #буст
A/B-тестирование — золотой стандарт продуктовой аналитики. Оно помогает принимать решения на основе данных, а не догадок.
Но есть нюанс: вся методика держится на важном допущении — независимости поведения пользователей.
⚠️ А если это допущение нарушено? Например, когда один пользователь влияет на другого: в соцсетях, маркетплейсах, рекомендательных системах — в таких случаях классическая схема даёт сбой.
Что с этим делать? Какие альтернативы существуют?
Разбираемся, когда A/B не работает — и чем его заменить: https://proglib.io/sh/lNqAnLfe9J
Библиотека дата-сайентиста #буст
🥴 Средний разработчик меняет работу каждые 1,5 года
И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.
Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.
😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство
Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.
🚀 Участвовать в исследовании → https://clc.to/9aaXVg
И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.
Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.
😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство
Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.
🚀 Участвовать в исследовании → https://clc.to/9aaXVg
Please open Telegram to view this post
VIEW IN TELEGRAM
👍 Технологии, модели и тренды:
— Google Gemini 2.5 Pro — новая превью-версия самой мощной модели Google, уже вырвалась в лидеры LMArena и WebDev Arena. Меньше месяца после последнего релиза — и снова прорыв.
— ElevenLabs v3 — самая выразительная AI TTS-модель, поддержка множества языков, включая арабский, африкаанс и мандарин. Новый стандарт для голосовых приложений.
— OpenAI и ChatGPT-5 — разбираем слухи, утечки и возможные фичи следующей версии ChatGPT. Что нового и чего ждать?
🧠 Исследования, статьи и практики:
— AI лучше человека в тестах на эмоциональный интеллект — исследование Женевского и Бернского университетов: ChatGPT и другие ИИ превосходят людей в распознавании и интерпретации эмоций.
— Сколько действительно запоминают LLM-модели? — методика оценки «запоминания» vs. «обобщения» в языковых моделях.
— Themis AI от MIT — стартап, обучающий ИИ понимать, чего он не знает. Подход к контролю неопределённости.
— ICLR 2025 и доверие к ИИ — новые подходы к обучению на субъективных данных, оценке качества моделей и внедрению человеческих суждений.
🎙 AI в обществе и индустрии:
— Demis Hassabis (DeepMind): «AI изменит рынок труда за 5 лет» — CEO Google DeepMind выступил на Google I/O и подкасте Hard Fork, обозначив AGI как ключевую технологию будущего.
— MCP-серверы: что это и зачем они нужны? — скоро на слуху у всех, особенно в проектах с тяжёлыми ML-нагрузками.
📘 Обучение, процессы и инструменты:
— Лучшие нейросети для суммаризации текста — подборка инструментов для пересказа, анализа и работы с текстами.
— Как наладить работу в кросс-функциональной команде Data Science + Dev — опыт Lamoda в совмещении ML и инженерии.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❗Вакансии «Библиотеки программиста»
Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.
👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой
Большим плюсом будет навык программирования на каких-либо языках.
✨ Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач
🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9
Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.
👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой
Большим плюсом будет навык программирования на каких-либо языках.
✨ Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач
🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9